Model Selection

Multilingual Image Understanding

# Multilingual Image Understanding

Llama 4 Scout 17B 4E Instruct

Llama 4 Scout is a 17-billion-parameter multimodal model with a Mixture of Experts (MoE) architecture, introduced by Meta. It supports 12 languages and image understanding, featuring a topk=4 expert dynamic fusion mechanism.

Large Language Model

Transformers Supports Multiple Languages

Llama 4 Scout 17B 16E Unsloth Bnb 4bit

Llama 4 Scout is a multimodal mixture-of-experts model developed by Meta, supporting 12 languages and image understanding, with 17 billion active parameters and a 10M context length.

Multimodal Fusion

Transformers Supports Multiple Languages

Chitrarth is a multilingual vision-language model designed to connect vision and language, with a special focus on supporting multiple Indian languages.

Safetensors Supports Multiple Languages

krutrim-ai-labs

Paligemma 3b Pt 448

PaliGemma is a lightweight and versatile vision-language model built on the SigLIP vision model and Gemma language model, supporting multilingual image-text interaction tasks.

Paligemma 3b Pt 224

PaliGemma is a versatile lightweight vision-language model (VLM) built upon SigLIP vision model and Gemma language model, capable of processing both image and text inputs to generate text outputs.

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase